Переход за пределы общих подсказок

Оптимизация через дообучение и специализированные архитектуры

1. За пределами подсказки

Хотя «малошотное» промптирующее является мощной отправной точкой, масштабирование решений на основе ИИ часто требует перехода к Обучению с учителем (дообучению). Этот процесс непосредственно интегрирует конкретные знания или поведения в веса модели.

Решение: Вы должны использовать дообучение только тогда, когда улучшение качества ответов и снижение затрат на токены превышают значительные затраты на вычисления и подготовку данных.

$Стоимость = Токены \times Ставка$

2. Революция малых языковых моделей

Малые языковые модели (SLM) являются высокопроизводительными, уменьшенными версиями своих крупных аналогов (например, Phi-3.5, Mistral Small). Они обучены на хорошо отобранных, высококачественных данных.

Компромиссы: SLM предлагают значительно меньшую задержку и позволяют развертывать модели на краевых устройствах (работающие локально на устройствах), но при этом жертвуют широкой, обобщённой «человеческой» интеллектуальностью, характерной для крупных моделей ИИ.

3. Специализированные архитектуры

Смесь экспертов (MoE): Техника, которая увеличивает общий размер модели, сохраняя вычислительную эффективность во время вывода. Для каждого токена активируется только подмножество «экспертов» (например, Phi-3.5-MoE).
Мультимодальность: Архитектуры, предназначенные для одновременной обработки текста, изображений и иногда аудио, расширяя применение за рамки генерации текста (например, Llama 3.2).

Иерархия эффективности

Всегда пытайтесь сначала Промпт-инжиниринг первым. Если это не сработает, применяйте RAG (генерация с поддержкой поиска). Используйте дообучение только как последний этап продвинутой оптимизации.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

Question 1

When does the course recommend proceeding with fine-tuning over prompt engineering?

When the benefits in quality and cost (reduced token usage) outweigh compute effort.

Whenever you need the model to sound more human-like.

As the very first step before trying RAG or prompt engineering.

Only when deploying to an edge device.

Question 2

Which model architecture allows scaling model size while maintaining computational efficiency?

Supervised Fine-Tuning (SFT)

Retrieval-Augmented Generation (RAG)

Mixture of Experts (MoE)

Multimodality

Challenge: Edge Deployment Strategy

Apply your knowledge to a real-world scenario.

You need to deploy a multilingual translation tool that runs locally on a laptop with limited GPU resources.

Task 1

Select the appropriate model family and tokenizer for this multilingual, low-resource task.

Solution:
Mistral NeMo with the Tekken Tokenizer. It is optimized for multilingual text and fits within SLM constraints.

Task 2

Define the deployment framework for high-performance local inference.

Solution:
Use ONNX Runtime or Ollama for local execution to maximize hardware acceleration on the laptop.